Chapter 1 Descripción

La dinámica y evolución de los homicidios en Colombia constituye un fenómeno de gran relevancia que merece ser minuciosamente analizado y comprendido. Pues, el entendimiento de sus tendencias, patrones y factores resulta esencial para abordar la complejidad de este delito en el país. En este sentido, este análisis podría arrojar luz a aspectos cruciales como la variación estacional de los homicidios, los potenciales impactos de factores socioeconómicos y demográficos y/o la influencia de las políticas de seguridad implementadas en el territorio nacional.

La base de datos proporcionada tiene un espacio temporal que data desde el 2010 hasta enero de 2024.

Fuente: Dirección de Investigación Criminal e Interpol (DIJIN) - Policía Nacional de Colombia.

GOV.CO_DatosAbiertos

Análisis exploratorio

Dimensiones

Se realiza la exploracion de las dimensiones de la base de datos evidenciando que esta cuenta con:

Filas: 75152 Columnas: 9

Tipo de variables

Se debe corrigir el tipo de las columnas FECHA HECHO y CANTIDAD, dado a que éstas son de tipo Date y Número, luego de aplicar los cambios se observa:

  • CANTIDAD: La variable es tipo numeric
  • FECHA HECHO: La variable es tipo Date

Identificación de registros vacíos

Se realiza la verificacion de valores nulos o vacios obteniendo los siguientes resultados:

##         DEPARTAMENTO            MUNICIPIO          CODIGO DANE 
##                    0                    0                    0 
##         ARMAS MEDIOS          FECHA HECHO               GENERO 
##                    0                    0                    0 
##         GRUPO ETARÍO DESCRIPCIÓN CONDUCTA             CANTIDAD 
##                    0                    0                    0

Clara mente se observa que no existen valos nulos o vacios en ninguna de las variables.

Identificación de registros vacíos

Se realiza la verificacion de valores nulos o vacios obteniendo los siguientes resultados:

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'
##       DEPARTAMENTO MUNICIPIO CODIGO DANE ARMAS MEDIOS FECHA HECHO GENERO
## 75152            1         1           1            1           1      1
##                  0         0           0            0           0      0
##       GRUPO ETARÍO DESCRIPCIÓN CONDUCTA CANTIDAD  
## 75152            1                    1        1 0
##                  0                    0        0 0

Clara mente se observa que no existen valores nulos o vacios en ninguna de las variables.

- Resumen de Estadisticos

A continuacion se muestra un resumen de los estadisticos basicos de nuestra variable CANTIDAD:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.000   1.000   1.105   1.000  16.000

- Transformación del dataset

A continuacion presentamos un resumen de los estadisticos de los homicidios totales de la serie de tiempo luego de realizar la transformacion de los datos:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   174.0   397.0   449.0   491.5   526.0  1264.0

Dado a que es una serie de tiempo solo tendremos en cuenta la construcción de una base que contenga las variables FECHA HECHO y CANTIDAD para el analisis a realizar, de igualmanera se determinan los siguientes parametros:

  • Frecuencia de la serie: Anual
  • Inicio de la Serie: 2010, 1
  • Fin de la Serie: 2024, 1

adicionalmente se resaliza la verificacion de la clase de la serie de tiempo:

  • Calse de la serie: ts

- Garficos

Luego de analizar los resultados se evidencia que en el mes de abril hay mayor numero de homicidios, adicionalmente se evidencia que la media de los meses se encuentra entre los 400 y 500 homicidios.

En 7 meses se observan unos valores atipicos que superan los 1000 homicidios y uno en el que se presentaron menos de 200, seria de gran valor hacer un analisis detallado de estos datos con el objetivo de entender mejor la naturaleza de estos resultados.

Para el caso de la grafica de rezagos se puede afirmar que no existe aleatoriedad, debido a que no se reflejan patrones identificables en los datos.

- Media Movil

A continuacion se realiza el calculo de las medias moviles (SMA y EMA) de la serie de datos con el objetivo de obtener de forma mas clara el comportamiento de nuestra serie.

- Gráfica de medias moviles exponencial vs simple

Durante los últimos 13 años, los homicidios en Colombia han experimentado un aumento gradual. Las medias móviles de 12 meses muestran que en 2010 había entre 230 y 240 asesinatos, comparados con 1000 a 850 asesinatos en los últimos meses de 2023 y enero de 2024, quintuplicando así las cifras de este fenómeno en el país. Se observa una tendencia a la baja al finalizar el primer semestre de cada año, seguido por un aumento durante los últimos meses, adicionalmente, se identifican dos períodos de fluctuaciones significativas:

  • Una baja notable al comienzo de la pandemia en 2020, dada la crisis sanitaria provocada por el COVID y la política de aislamiento social

  • Un aumento sostenido en casi todo 2023, este comportamiento podria estar asociados a aumentos de bandas criminales y grupos armados como efecto de los cambios politicos que se generaron con el actual gobierno en materia de seguridad.

En cuanto a las líneas móviles exponenciales versus las simples, aunque no coinciden exactamente en su posición, sí lo hacen en cuanto a su tendencia, siendo la línea simple más suavizada que la exponencial.

En congruencia con las medias móviles, se observa que la cantidad de homicidios no supera los 375 casos mensuales mensuales antes del 2020, sin embargo en el los periodos posteriores como en el 2023 se observa que se alcanzan valores tope hasta de 1000 muertes mesuales en el país a causa de los homicidios.

- Transformaciones básicas Series de Tiempo

A continuacion realizaremos algunas transformaciones que nos permitiran detallar mucho mejor el analisis de nuestra serie de tiempo.

Acorde a la tendencia el comportamiento de los homicidios es lineal durante los años 2010 y 2020. Posteriormente, se vuelve creciente hasta finales del 2023.

- Identificación de Estacionalidad Dicker - Fuller

## 
##  Augmented Dickey-Fuller Test
## 
## data:  df_ts
## Dickey-Fuller = -4.1312, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary

Dado que el p-value es menor al nivel de significancia de 0.05 se acepta la hipotesis alternativa de que la serie sí es estacionaria

- Estacionalidad por año

Se evidencian picos en la mayoría de los años principalmente en los meses de febrero, abril, junio y octubre, a excepción de 2023; a diferencia de los meses mayo, septiembre y noviembre, don de la cantidad de hpmicidios disminuye.

- Diferenciación

Dado a que en los modelos de series de tiempo se requiere tener en cuenta la estacionariedad, para una mejor modelización y capacidad predictiva se procede a obtener las diferencias para hallarla. En otras palabras, se realiza para la estructuración del modelo a realizar.

¿Cuántas diferencias se necesitan para hallar estacionariedad?

Despues de realizar el procedimiento de diferenciacion se llega a la conclusion que se solo se requieren 1 diferencias para identificar la estacionariedad.

- Transformación para la variabilidad

A continuacion, se aplica una transformacion logaritmica a la serie de tiempo, esto se realiza para cumplir con el supuesto de que la serie tiene variabilidad constante, para una mayor estabilidad e interpretación de datos.

- Aplicación de diferenciación

- Aplicación de función ACF

El realizar la autocorrelacion nos permite identificar un comportamiento estacionario con respecto al tiempo en la serie de tiempo.

- Aplicación de función PACF

Al identificar la estructura autorregresiva en la serie, se tiene que, se necesitan 3 rezagos para predecir el valor actual de la serie.

- Modelado

ARIMA(p,d,q); donde, p = rezagos, d = diferenciación, y q = orden media móvil

## Series: a_estacio 
## ARIMA(3,0,0) with non-zero mean 
## 
## Coefficients:
##           ar1      ar2      ar3    mean
##       -0.4229  -0.0919  -0.0989  0.0029
## s.e.   0.0767   0.0835   0.0819  0.0077
## 
## sigma^2 = 0.02627:  log likelihood = 69.26
## AIC=-128.51   AICc=-128.14   BIC=-112.89
## 
## Training set error measures:
##                         ME     RMSE       MAE  MPE MAPE      MASE         ACF1
## Training set -0.0001979727 0.160125 0.1040723 -Inf  Inf 0.7027804 -0.006712491